联合超分辨率和反音调映射(SR-ITM)旨在提高具有分辨率和动态范围具有质量缺陷的视频的视觉质量。当使用4K高动态范围(HDR)电视来观看低分辨率标准动态范围(LR SDR)视频时,就会出现此问题。以前依赖于学习本地信息的方法通常在保留颜色合规性和远程结构相似性方面做得很好,从而导致了不自然的色彩过渡和纹理伪像。为了应对这些挑战,我们建议联合SR-ITM的全球先验指导的调制网络(GPGMNET)。特别是,我们设计了一个全球先验提取模块(GPEM),以提取颜色合规性和结构相似性,分别对ITM和SR任务有益。为了进一步利用全球先验并保留空间信息,我们使用一些用于中间特征调制的参数,设计多个全球先验的指导空间调制块(GSMB),其中调制参数由共享的全局先验和空间特征生成来自空间金字塔卷积块(SPCB)的地图。通过这些精心设计的设计,GPGMNET可以通过较低的计算复杂性实现更高的视觉质量。广泛的实验表明,我们提出的GPGMNET优于最新方法。具体而言,我们提出的模型在PSNR中超过了0.64 dB的最新模型,其中69 $ \%$ $ $较少,3.1 $ \ times $ speedup。该代码将很快发布。
translated by 谷歌翻译
深神经网络(DNN)是医疗应用中有前途的工具。但是,由于通信的能源成本很高,因此在电池供电设备上实施复杂的DNN是具有挑战性的。在这项工作中,开发了卷积神经网络模型,用于检测心电图(ECG)信号的房颤。该模型表明,尽管接受了有限的可变长度输入数据训练,但表现出了高性能。重量修剪和对数定量合并以引入稀疏性并降低模型大小,可以利用这些稀疏性,以减少数据移动和降低计算复杂性。最终模型达到了91.1%的模型压缩率,同时保持高模型精度为91.7%,损失小于1%。
translated by 谷歌翻译
近年来,异构图形神经网络(HGNNS)一直在开花,但每个工作所使用的独特数据处理和评估设置会让他们的进步完全了解。在这项工作中,我们通过使用其官方代码,数据集,设置和超参数来展示12个最近的HGNN的系统再现,揭示了关于HGNN的进展的令人惊讶的结果。我们发现,由于设置不当,简单的均匀GNN,例如GCN和GAT在很大程度上低估了。具有适当输入的GAT通常可以匹配或优于各种场景的所有现有HGNN。为了促进稳健和可重复的HGNN研究,我们构建异构图形基准(HGB),由具有三个任务的11个不同数据集组成。 HGB标准化异构图数据分割,特征处理和性能评估的过程。最后,我们介绍了一个简单但非常强大的基线简单 - HGN - 这显着优于HGB上以前的所有模型 - 以加速未来HGNN的进步。
translated by 谷歌翻译
医生经常基于患者的图像扫描,例如磁共振成像(MRI),以及患者的电子健康记录(EHR),如年龄,性别,血压等。尽管在计算机视觉或自然语言研究领域的图像或文本分析中提出了大量的自动方法,但已经为医学图像的融合和医疗问题的EHR数据进行了更少的研究。在现有的早期或中间融合方法中,两种方式的特征串联仍然是一个主流。为了更好地利用图像和EHR数据,我们提出了一种多模态注意力模块,该模块使用EHR数据来帮助选择传统CNN的图像特征提取过程期间的重要区域。此外,我们建议将多头Machnib纳入门控多媒体单元(GMU),使其能够在不同子空间中平行熔断图像和EHR特征。在两个模块的帮助下,可以使用两个模态增强现有的CNN架构。预测脑内出血患者的Glasgow结果规模(GOS)和分类Alzheimer病的实验表明,该方法可以自动关注任务相关领域,并通过更好地利用图像和EHR功能来实现更好的结果。
translated by 谷歌翻译
近年来,大规模的深层模型取得了巨大的成功,但巨大的计算复杂性和大规模的存储要求使其在资源限制设备中部署它们是一个巨大的挑战。作为模型压缩和加速度方法,知识蒸馏通过从教师探测器转移黑暗知识有效提高了小型模型的性能。然而,大多数基于蒸馏的检测方法主要模仿近边界盒附近的特征,这遭受了两个限制。首先,它们忽略边界盒外面的有益特征。其次,这些方法模仿一些特征,这些特征被教师探测器被错误地被视为背景。为了解决上述问题,我们提出了一种新颖的特征性 - 丰富的评分(FRS)方法,可以选择改善蒸馏过程中的广义可检测性的重要特征。所提出的方法有效地检索边界盒外面的重要特征,并消除边界盒内的有害特征。广泛的实验表明,我们的方法在基于锚和无锚探测器上实现了出色的性能。例如,具有Reset-50的RetinAnet在Coco2017数据集上达到39.7%,甚至超过基于Reset-101的教师检测器38.9%甚至超过0.8%。
translated by 谷歌翻译
条件图像合成旨在根据文本描述,参考图像和图像块的形式创建图像,以保存的,以及它们的组合。在本文中,我们提出了一个新的两级架构M6-UFC,统一了任何数量的多模态控件。在M6-UFC中,各种控制信号和合成图像都均匀地表示为由变压器处理的离散令牌序列。与现有的两级自回归方式不同,如Dall-E和VQGAN,M6-UFC在第二阶段采用非自动发作生成(NAR),以增强合成图像的整体一致性,以支持保留指定的图像块,以及提高合成速度。此外,我们设计了一种逐步算法,其迭代地改善了非自动产生的图像,其中包括用于评估符合控制的符合和评估合成图像的保真度的两个估计器的帮助。在新收集的大型服装数据集M2C时装和面部数据集多模态Celeba-HQ上进行了广泛的实验验证了M6-UFC可以合成符合灵活的多模态控制的高保真图像。
translated by 谷歌翻译
由于其在捕获地区和翻译不变性的能力,卷积神经网络(CNNS)已经主导了计算机愿景。最近,已经提出了许多视觉变压器架构,他们表现出了有希望的表现。视觉变压器中的一个关键组件是在长距离依赖性建模中的CNN具有完全连接的自我关注。然而,由于当前密集的自我关注使用所有图像斑块(令牌)来计算注意力矩阵,因此它可能会忽略图像斑块的局部性,并且涉及嘈杂的令牌(例如,杂物背景和遮挡),导致慢训练过程和潜在的劣化表现。为了解决这些问题,我们提出了k $ -nn注意促进视觉变压器。具体而言,而不是涉及所有引起注意矩阵计算的令牌,我们只能从每个查询的键中选择顶级$类似的标记来计算注意图。提议的$ k $ -nn注意自然地继承了CNN的当地偏见而不引入卷积操作,因为附近的代币往往比其他代币更相似。此外,$ k $ -nn注意允许探索远程相关性,同时通过从整个图像中选择最相似的标记来筛选无关的标记。尽管其理论上和经验,我们验证了它,即美元 - 不关注的是,在加快输入令牌的训练和蒸馏噪声方面是强大的。通过使用11种不同的视觉变压器架构进行了广泛的实验,以验证所提出的$ -NNN注意力可以与任何现有的变压器架构合作,以提高其预测性能。
translated by 谷歌翻译
常规域中的文本到图像生成长期以来一直是一个开放问题,这需要强大的生成模型和跨模型理解。我们提出CogView,一个带VQ-VAE牌器的40亿参数变压器来推进此问题。我们还展示了各种下游任务的FineTuning策略,例如,风格学习,超分辨率,文本图像排名和时装设计,以及稳定预制雷岭的方法,例如,消除南损失。Cogview在模糊的MS Coco DataSet上实现最先进的FID,优于以前的基于GAN的模型和最近类似的工作Dall-e。
translated by 谷歌翻译
The recent increase in public and academic interest in preserving biodiversity has led to the growth of the field of conservation technology. This field involves designing and constructing tools that utilize technology to aid in the conservation of wildlife. In this article, we will use case studies to demonstrate the importance of designing conservation tools with human-wildlife interaction in mind and provide a framework for creating successful tools. These case studies include a range of complexities, from simple cat collars to machine learning and game theory methodologies. Our goal is to introduce and inform current and future researchers in the field of conservation technology and provide references for educating the next generation of conservation technologists. Conservation technology not only has the potential to benefit biodiversity but also has broader impacts on fields such as sustainability and environmental protection. By using innovative technologies to address conservation challenges, we can find more effective and efficient solutions to protect and preserve our planet's resources.
translated by 谷歌翻译
We aim to bridge the gap between our common-sense few-sample human learning and large-data machine learning. We derive a theory of human-like few-shot learning from von-Neuman-Landauer's principle. modelling human learning is difficult as how people learn varies from one to another. Under commonly accepted definitions, we prove that all human or animal few-shot learning, and major models including Free Energy Principle and Bayesian Program Learning that model such learning, approximate our theory, under Church-Turing thesis. We find that deep generative model like variational autoencoder (VAE) can be used to approximate our theory and perform significantly better than baseline models including deep neural networks, for image recognition, low resource language processing, and character recognition.
translated by 谷歌翻译